Sua opinião sobre o comportamento de uma variável muda na presença de informação de uma segunda variável?
A distribuição conjunta das duas variáveis descreve a associação existente entre elas.
Grau de dependência: como uma variável "explica" ou se "associa" a outra.
Temos três casos:
as duas variáveis são quantitativas
as duas variáveis são qualitativas
uma variável é quantitativa e a outra qualitativa
Queremos estudar o comportamento conjunto de duas variáveis: Endometrioma de ovário (\(X\)) e Adenomiose (\(Y\)).
| Endometrioma de ovário | Adenomiose Focal | Adenomiose Difusa | Total |
|---|---|---|---|
| Sim | 61 | 473 | 534 |
| Não | 54 | 122 | 176 |
| Total | 534 | 176 | 710 |
Podemos considerar também proporções condicionais (frequências relativas):
em relação ao total de elementos;
em relação ao total de cada linha;
em relação ao total de cada coluna.
A proporção condicional escolhida depende do estudo que pretendemos fazer.
Distribuição das frequências relativas ao total da amostra.
Total da amostra é 710.
| Adenomiose Focal | Adenomiose Difusa | Sum | |
|---|---|---|---|
| Endometrioma: Sim | 0.086 | 0.666 | 0.752 |
| Endometrioma: Não | 0.076 | 0.172 | 0.248 |
| Sum | 0.162 | 0.838 | 1.000 |
8,6% possuem endometrioma de ovário e adenomiose focal.
Distribuição das frequências relativas ao total de cada coluna.
| Adenomiose Focal | Adenomiose Difusa | |
|---|---|---|
| Endometrioma: Sim | 0.53 | 0.795 |
| Endometrioma: Não | 0.47 | 0.205 |
| Sum | 1.00 | 1.000 |
Entre as mulheres com adenomiose focal:
Entre as mulheres com adenomiose difusa:
Permite comparar a distribuição de endometrioma (\(X\)) conforme o tipo de adenomiose (\(Y\)).
Observando o gráfico e a tabela de proporções parece haver evidências de associação entre a presença de endometrioma e o tipo de adenomiose.
Distribuição das frequências relativas ao total de cada linha.
| Adenomiose Focal | Adenomiose Difusa | Sum | |
|---|---|---|---|
| Endometrioma: Sim | 0.114 | 0.886 | 1 |
| Endometrioma: Não | 0.307 | 0.693 | 1 |
Entre as mulheres com endometrioma de ovário:
Entre as mulheres sem endometrioma de ovário:
Permite comparar a distribuição do tipo de adenomiose (\(Y\)) conforme a presença de endometrioma (\(X\)).
Uma pesquisa foi feita para investigar a presença de pesticidas em alimentos orgânicos e convencionais.
| Pesticida Presente | Pesticida Ausente | Total | |
|---|---|---|---|
| Orgânico | 29 | 98 | 127 |
| Convencional | 19485 | 7086 | 26571 |
| Total | 19514 | 7184 | 26698 |
Qual a proporção de alimentos com pesticida?
\(19514/26698=0.731\)
Qual a proporção de alimentos com pesticidas dentre os orgânicos?
\(29/127=0.228\)
Qual a proporção de alimentos com pesticidas dentre os convencionais?
\(19485/26571=0.733\)
Proporção condicional: condicionalmente à informação de uma variável, observamos a proporção da outra variável.
Qual a proporção de pesticidas entre alimentos orgânicos?
Qual a proporção de pesticidas entre alimentos convencionais?
| Pesticida Presente | Pesticida Ausente | Sum | |
|---|---|---|---|
| Orgânico | 0.23 | 0.77 | 1 |
| Convencional | 0.73 | 0.27 | 1 |
Observando o gráfico e a tabela de proporções condicionais parece haver evidências de associação entre presença de pesticida e tipo de alimento.
A Escola de Saúde Pública da Harvard fez uma pesquisa com 200 cursos de graduação em 2001.
A pesquisa pergunta aos alunos sobre hábitos relacionados à bebida.
4 drinks seguidos, entre mulheres, é classificado como bebida em excesso.
5 drinks seguidos, entre homens, é classificado como bebida em excesso.
| Bebida em excesso - Sim | Bebida em excesso - Não | Total | |
|---|---|---|---|
| Masculino | 1908 | 2017 | 3925 |
| Feminino | 2854 | 4125 | 6979 |
| Total | 4762 | 6142 | 10904 |
Qual o número de alunos:
do sexo masculino e que beberam em excesso?
do sexo feminino e que beberam em excesso?
Usando diretamente a tabela, podemos responder à pergunta: Há diferença entre homens e mulheres na proporção de ocorrência de bebida em excesso?
Proporções condicionais de ocorrência de bebida em excesso por gênero:
| Bebida em excesso - Sim | Bebida em excesso - Não | Sum | |
|---|---|---|---|
| Masculino | 0.49 | 0.51 | 1 |
| Feminino | 0.41 | 0.59 | 1 |
Proporção de ocorrência de bebida em excesso entre homens: \[\frac{1908}{3925}=0.49\]
Proporção de ocorrência de bebida em excesso entre mulheres: \[\frac{2854}{6979}=0.41\]
Observando o gráfico e a tabela de proporções condicionais parece haver evidências de associação entre gênero e bebida em excesso.
Associação entre duas variáveis qualitativas: comparar proporções condicionais.
Associação entre duas variáveis quantitativas: comparamos como a mudança de uma variável afeta a outra variável.
| Agente | Anos de Serviço (\(X\)) | Nº de Clientes (\(Y\)) |
|---|---|---|
| A | 2 | 48 |
| B | 4 | 56 |
| C | 5 | 64 |
| D | 6 | 60 |
| E | 8 | 72 |
| Total | 25 | 300 |
O gráfico indica uma possÃvel dependência linear positiva entre as variáveis anos de serviço e número de clientes.
Renda Mensal Bruta (\(X\))
\(\%\) da Renda gasta com Assistência Médica (\(Y\))
## Familia X Y ## 1 A 12 7.2 ## 2 B 16 7.4 ## 3 C 18 7.0 ## 4 D 20 6.5 ## 5 E 28 6.6 ## 6 F 30 6.7 ## 7 G 40 6.0 ## 8 H 48 5.6 ## 9 I 50 6.0 ## 10 J 54 5.5
Nesse caso, a dependência entre \(X\) e \(Y\) parece ser linear negativa.
Objetivo: obter uma medida que permita quantificar a dependência que pode existir entre duas variáveis (positiva, negativa, muita ou pouca).
Dado \(n\) pares de observações \((x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})\): \[Corr(X,Y)=\frac{1}{n-1}\sum_{i=1}^{n}\left(\frac{x_{i}-\bar{x}}{s_x}\right)\left(\frac{y_{i}-\bar{y}}{s_y}\right)\] onde \(s_x\) é o desvio padrão de \(X\) e \(s_y\) é o desvio padrão de \(Y\).
Essa medida leva em consideração todos os desvios \((x_{i}-\bar{x})\) e \((y_{i}-\bar{y})\) padronizados da forma \(z_{x_i}=\frac{x_{i}-\bar{x}}{s_x}\) e \(z_{y_i}=\frac{y_{i}-\bar{y}}{s_y}\).
Interpretação: \(z_{x_i}\) indica o número de desvios-padrão que a observação \(x_i\) está afastada da média de X.
\(-1 \leq Corr(X, Y) \leq 1\)
\(Corr(X, Y)\) próxima de 1: \(X\) e \(Y\) estão positivamente associadas e o tipo de associação entre as variáveis é linear.
\(Corr(X, Y)\) próxima de -1: \(X\) e \(Y\) estão negativamente associadas e o tipo de associação entre as variáveis é linear.
Se \(z_{x}\) e \(z_y\) têm o mesmo sinal, estamos somando um termo positivo na expressão da correlação.
Se \(z_{x}\) e \(z_y\) têm sinais opostos, estamos somando um termo negativo na expressão da correlação.
Correlação é a média dos produtos de \(z_x\) e \(z_y\).
| Agente | Anos de Serviço (\(X\)) | Nº de Clientes (\(Y\)) |
|---|---|---|
| A | 2 | 48 |
| B | 4 | 56 |
| C | 5 | 64 |
| D | 6 | 60 |
| E | 8 | 72 |
| Total | 25 | 300 |
Anos de Serviço (\(X\)): \(\quad \bar{x}=5 \quad \mbox{e} \quad s_x=2.24\)
Nº de Clientes (\(Y\)): \(\quad \bar{y}=60 \quad \mbox{e} \quad s_y=8.94\)
| Agente | \(X\) | \(Y\) | \(z_x=\frac{x_{i}-\bar{x}}{s_x}\) | \(z_y=\frac{y_{i}-\bar{y}}{s_y}\) | \(z_x\times z_y\) |
|---|---|---|---|---|---|
| A | 2 | 48 | -1.34 | -1.34 | 1.8 |
| B | 4 | 56 | -0.45 | -0.45 | 0.2 |
| C | 5 | 64 | 0 | 0.45 | 0 |
| D | 6 | 60 | 0.45 | 0 | 0 |
| E | 8 | 72 | 1.34 | 1.34 | 1.8 |
\[Corr(X, Y)=\frac{1}{n-1}\sum_{i=1}^{n}z_{x_i}z_{y_i}=\frac{3.8}{5-1}=0.95\]
Número de passos diários coletados para uma pessoa usando um Fitbit durante 297 dias.
Qual é maior? Média ou mediana?
Média é 9154 e mediana é 8597.
Além do total de passos, Fitbit também registra o tempo gasto em cada tipo de atividade.
Há relação entre o total de passos e o tempo gasto em atividade intensa?
Correlação: 0.76
Há relação entre o total de passos e o tempo (em minutos) de sedentarismo?
Correlação: -0.76
Baseado na altura, peso e gênero, o Fitbit estima o comprimento de cada passo.
Há relação entre o total de passos e distância percorrida?
Correlação: 1
Fonte: http://simplystatistics.org/2015/08/12/correlation-is-not-a-measure-of-reproducibility/
Mortalidade: número de mortes de crianças de até 5 anos por mil nascidos vivos.
Analfabetismo: % de analfabetos na população de 18 anos ou mais.
Fonte: http://blog.estadaodados.com/analfabetismo-mortalidade/
Variável quantitativa: número de acidentes de carro diários
Variável qualitativa: região de NY
Slides produzidos pelos professores:
Samara Kiihl
Tatiana Benaglia
Benilton Carvalho
Rafael Maia